﻿ Masteratulde LingvisticăComputațională Curs: Introducerein Lingvistica Computațională Curs 12 Abordăristatistice, vectorialeșineurale Curs: Dan Cristea Seminarii& proiect: Mihaela Onofrei, Dan Cristea Methods for discriminating terms and documents After (Manning et al , 2009) Term Frequency Inverse Document Frequency •tf(t,d) = the frequency of a term t in a document d –how many times is tmentioned in d, usually normalised to the total number of terms –used to scale a collection of documents with respect to the occurrences of a term –however it may be confusing in appreciation of different term relevances •idf(t) = N/log(df(t)) –N= the number of documents in the collection –df(t) = the number of documents containing tat least once –idf of a frequent term is low, and of a rare term is high TF-IDF •tf-idf(t,d) = tf(t,d) * idf(t) –a weighting scheme that reflects how important is a word with respect to the documents contained in a corpus –used in classification, information retrieval, text mining, etc •Variations of the TF-IDF often used by search engines for scoring and ranking a document's relevance given a user query •TF-IDF can be successfully used for stop-words filtering in various subject fields including text summarization and classification Term-document matrix •An Mx Nmatrix with Mrows representing terms (dimensions) and Ncolumns representing documents –Example: the number of occurrences of three terms (affection, jealous and gossip) in three novels: Jane Austen’s Sense and Sensibility (SaS) and Pride and Prejudice (PaP) and Emily Brontë’s Wuthering Heights (WH) Metode kernel în învățarea bazată de similaritate După(Ionescu, 2018) Applications that use vectors •Vectors can be used as features in a variety of applications: –information retrieval (Manning et al , 2009), –document classification (Sebastiani, 2002), –question answering (Tellex et al , 2003), –named entity recognition (Turian et al , 2010), –parsing (Socher et al , 2013) Modelul spațiului vectorial •Reprezentarea unei mulțimi de obiecte ca vectori este cunoscută sub numele de modelul spațiului vectorial(vector space model) –dimensiunile sunt caracteristici (cuvinte, similarități între un eșantion de test și unul de antrenare, TF-IDF etc ) –cererile însele sunt reprezentate ca vectori Din (Verberne, 2018) Similaritate bazată pe produs scalar •Un vector V(d) –derivat dintr-un obiect d, cu câte o componentă pentru fiecare caracteristică –valuarea unei componente este un număr, sau scorul de ponderare tf-idf, sau orice altceva •Cum putem aprecia similaritatea dintre două objecte în acest spațiu vectorial? –1atentativă: să calculăm lungimea vectorului diferență dintre vectorii celor două obiecte… criticabilă! –o soluție mai bună: similaritatea cosinus: Proprietățile produsului scalar (intern) • : Vx VàRare proprietățile: –simetrie: = –linearitate: = a ; = + –definit pozitiv: ³0; = 0 óx= 0 unde xTeste transpusa lui x Calculând similaritatea •Produs scalar: •Lungime euclideană: •Vectori unitari: și •Similaritate: •Similaritate = cosinusul unghiului dintre cele două obiecte Spațiul produsului intern (spațiul Hilbert) •Un spațiu vectorial Xpeste mulțimea numerelor reale Reste un spațiu al produsului intern, dacă există o funcție (mapare) bilineară (lineară în fiecare argument), simetrică și cu valori reale , care satisface: ³0, pentru orice xÎX –funcția se numește produs intern sau produs scalar –spațiul produsului intern este uneori numit spațiu Hilbert; Rmeste un spațiu Hilbert ( ) Motivația utilizării kernelilor: scufundarea (transpunerea) trăsăturilor (embedding) Patternuri neliniare sunt convertite în liniare Funcția încorporează datele unui spațiu de caracteristici în care relațiile neliniare apar liniare Metodele de învățare automată pot detecta cu ușurință astfel de relații liniare Kerneluri în spații de produs intern •O metodăkernelface o mapareîntr-un spațiual scufundărilorsau al caracteristicilor O maparede scufundare(embedding) esteo funcție: undeFesteun spațiual produsuluiintern aplicatcaracteristicilor •Un kernelesteo funcțiekcare, pentruoricex, z ÎX satisface: –alegereafuncțieide maparefare ca scopconversiarelațiilornelineare din Xînrelațiilinearedin spațiulscufundărilorF Metode kernel •Metodele de învățare bazate pe kernel funcționează prin transpunerea datelor într-un spațiu Hilbert și prin căutarea unor relații liniare în acel spațiu, folosind un algoritm de învățare –pentru a transpune date într-un spațiu Hilbert: indiferent de datele de intrare, se transformă reprezentarea într-un spațiu multidimensional (> 3 dimensiuni) –transpunerea se face implicit, prin specificarea produsului intern între fiecare pereche de puncte, mai degrabă decât prin precizarea explicită a coordonatelor De ce e importantă o funcție kernel? •Metodele kernel(prin funcții kernel) oferă puterea de a gestiona în mod natural datele de intrare care nu sunt sub formă de vectori numerici, cum ar fi șiruri de caractere, șiruri de cuvinte, imagini sau chiar fișiere video și audio •Funcția kernelcaptează noțiunea intuitivă de asemănare între obiecte dintr-un domeniu specific și poate fi orice funcție definită pe domeniul respectiv care este simetrică și pozitiv definită –în biologie computațională și lingvistică computațională (Shawe-Taylor andCristianini, 2004) –în interpretarea imaginilor (Lazebniket al , 2006; GraumanandDarrell, 2005) Matricea kernel •Fiinddatun set de vectori{x1,… xn} șio funcțiekernel k folosităpentrua evaluaproduselescalareîntr-un spațiu al caracteristicilor, cu funcția de mapare a caracteristicilor f, matricea kerneleste definită ca matricea n xnKcu intrările date de Kij= = k(x, x) ij •O funcțiek : X´XàRcare este fie continuă, fie are un domeniu finit, poate fi descompusă de o funcție de mapare a caracteristicilor fîntr-un spațiu Hilbert Faplicat ambelor argumente, urmat de evaluarea produsului intern în Fdupă cum urmează: k(x, z) = , dacă și numai dacă este pozitiv semi-definită Exemple și proprietăți de funcții kernel •Kernel liniar: obținut prin calculul produsului intern al doi vectori Funcția de mapare în acest caz estef(x) = x –Exemplu: dacă x= (1, 2, 4, 1) și z= (5, 1, 2, 3) sunt doi vectori în R4, atunci k(x, z) = = 1 5 + 2 1 + 4 2 + 1 3 = 18 •Fie k1 și k2două kerneluri peste X´X, XÍ, aÎR+, f( ) –o funcție reală pe Xși M–o matrice pozitiv semi-definită și simetrică nxn Atunci, următoarele funcții sunt, de asemenea, kernel-uri: k(x, z) = k1(x, z) + k2(x, z) k(x, z) = ak1(x, z) A se vedea (Ionescu, 2018), pag 44-45, k(x, z) = k1(x, y) k2(y, z)pentru mai multe exemple de funcții kernel k(x, z) = f(x) f(z) k(x, z) = xTMzMse numește pozitiv semi-definită dacă xTMx³0 pentru orice x in Rn Clasificatori Kernel •În problemele de clasificare binară, algoritmii de învățare bazați pe kernel caută o funcție discriminantă, care atribuie +1 exemplelor care aparțin unei clase și -1 exemplelor care aparțin celeilalte clase •O funcție liniară: Normalizare Kernel •Fiind dat un kernel k(x; z) care corespunde funcției de mapare f, kernelul normatizat ^k(x; z) corespunde funcției de mapare dată de: •Normalizarea ajută la îmbunătățirea performanțelor algoritmilor de învățare automată •Exemple: –normalizarea face ca valorile caracteristicilor din date să aibă media zero și variația sub-unitară –se împarte fiecare componentă cu rădăcina pătrată a produsului celor două componente diagonale corespunzătoare: O scurtă revedere a rețelelor neurale După: (Nielsen, 2015) Rețele neurale în IA •Inspirate din medicină, unde ar trebui referite drept rețele neuronale •Neuronul artificial –numit perceptron –concept introdus în anii 1950 și 1960 (de către Frank Rosenblatt, inspirat de o lucrare anterioară a lui Warren McCullochși Walter Pitts) w1 w2 w3 Rețele cu sau fără feedback •Rețele neurale în care ieșirea dintr-un strat este utilizată ca intrare în stratul următor => rețele neurale feedforward –nu există bucle în rețea -informațiile sunt întotdeauna alimentate către înainte, nu și către înapoi •Dacă ieșirea alimentează noduri interioare => rețele recurente O altă manieră de a scrie ecuația rețelei = w x (produs scalar între doi vectori: de ponderi și de intrări) Notând b = -threshold (prag) => Schimbândfuncțiakernel șiclasificatorul algoritmulse poateparticulariza kernelurilesunt inițializatela matricizero matriceakernel de test de lx ncomponente clasificatorulkernel Casigneazăo ponderefiecăruiexemplude antrenare eticheteleprezisepentrueșantioanelede test din Z, astfel încâtyicorespundeeșantionuluide test zi praguri ponderi Din (Ionescu, 2018), pag 47Cum poate o rețea neurală să învețe? •O mică schimbare a ponderii unui arc din rețea –poate provoca comutarea completă a ieșirii, de ex din 0 în 1 –dacă o anumită ieșire acum ar fi corectată în sensul în care dorim, e posibil însă ca restul intrărilor să fie drastic afectate, într-un mod greu de controlat => ne trebuie o manieră prin care să modificăm treptat ponderile și polaritățile, astfel încât rețeaua să se apropie de comportamentul dorit? •O rețea în care comutarea să nu fie radicală, cum e cea dată de o funcție prag Funcțiile sign, sigmoid, tanh A învăța = a minimiza o funcție de eroare (cost, obiectiv, loss) în care: –w= matricea ponderilor (weights) –b= vectorul pragurilor (biases) –n= dimensiunea intrării (lungimea lui x) –x = intrarea –y(x) = ieșirea dorită –a(w, b, x) = ieșirea calculată de rețea Regula de scădere a gradientului •Presupunând un Ccare depinde de un set de variabile de intrare v= (v, v),variația DCa lui C, 1m produsă de o mică variație a intrării: Dv= (Dv1, Dvm)T, este: DC≈ ÑC Dv, unde: este gradientul •Dacă alegem: Dv= -ηÑC, cu η> 0, atunci ne asigurăm că variația DCva fi negativă (pt că vrem ca eroarea să fie mai mică la fiecare pas) •Regula de actualizare: algoritmul de gradient descent Cum se aplică gradient descent? •Scăderea gradientului poate fi privită ca o modalitate de a face pași mici în direcția care îl face pe Csă scadă cel mai rapid •Vectorul gradient are componentele și astfel încât: regulile prin care rețeaua neurală va Dar asta înseamnă că ieșirea influențează rețeaua, putea să învețefără ca rețeaua să fie recurentă (pentru că sunt influențate doar ponderile și pragurile, nu și intrările neuronilor) Scăderea stocastică a gradientului •În practică, numărul ponderilor și a pragurilor poate fi extrem de mare, de aceea iterarea scăderii gradientului pe fiecare dintre ele poate fi nerealistă •La fiecare pas în antrenare, se aleg aleator un număr m de intrări X1, Xmși se estimează DCdoar pe baza acestora, prin medierea rezultatelor •La fiecare pass, alt eșantion Rețele neurale de adâncime Rețele multistrat (de adâncime) •Perceptronii de pe nivelul 2 iau decizii prin cântărirea rezultatelor primului nivel –decizii la un nivel mai complex și mai abstract decât pe cel din primul strat –decizii și mai complexe pot fi luate de perceptronii din cel de al treilea strat –o rețea multiplă de perceptroni se poate angaja într-o decizie sofisticată Învățare de profunzime (deep learning) •Să presupunem că dorim să determinăm dacă o poză conține o față umană ori nu: A se vedea: (Goodfellow et al , 2016) Descompunem problema în subprobleme mai simple •Are imaginea un ochi în partea stângă sus? Are ea un ochi în partea dreaptă sus? Are un nas în mijloc? Are o gură jos la mijloc? Există păr deasupra? Și așa mai departe Și acestea în altele încă mai simple •Dar cum să descompui problema automat, propunând 5-10 niveluri intermediare (ascunse) de neuroni, care abordează concepte din ce în ce mai generale ImageNet and WordNet •A huge database of over 14 million images drawn from 1000 different categories •Its class coverage is exhaustive enough that it covers most types of images that one would encounter in everyday life •Organized according to the WordNet hierarchy of nouns Follow a Stanford course… At: https://www youtube com/watch?v=OQQ-W 63UgQ …or Follow an MIT course At: https://www youtube com/watch?v=0VH1Lim8gL8 Bibliografie •Goodfellow, Ian, Bengio, Yoshua and Courville, Aaron (2016) Deep Learning, MIT Press (http://www deeplearningbook org) •Grauman, Kristen and Darrell, Trevor (2005) The Pyramid Match Kernel: Discriminative Classification with Sets of Image Features In Proceedings of ICCV, volume 2, pp 1458{1465 •Ionescu, Radu Tudor (2018) Habilitation thesis Knowledge Transfer between Computer Vision, Text Mining and Computational Biology: New Chapters, University of Bucharest •Lazebnik, Svetlana, Schmid, Cordelia, and Ponce, Jean (2006) Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories In Proceedings of CVPR, volume 2, pp 2169{2178, Washington, IEEE Computer Society •Manning, C D and Socher, R (2017) CS224N: Natural language processing with deep learning Stanford University School of Engineering https://www youtube com/watch?v=OQQ-W 63UgQ •Manning, Christopher D , Raghavan, Prabhakar and Schütze, Hinrich (2009) An Introduction to Information Retrieval,Cambridge UP,https://nlp stanford edu/IR-book/pdf/irbookonlinereading pdf •Nielsen, Michael A (2015) Neural networks and deep learning, Determination Press http://neuralnetworksanddeeplearning com/chap1 html •Shawe-Taylor, John and Crist ianini, Nello (2004) Kernel Met hods f or Pat t ern Analysis, Cambridge Universit y Press •Sebastiani, Fabrizio (2002) Machine learning in automated text categorization ACM Computing Surveys, 34:1–47 •Socher, Richard, Bauer, John, Manning, Christopher D and Ng, Andrew Y (2013) Parsing With Compositional Vector Grammars In ACL •Verberne, Suzan (2018) Word2Vec Tutorial, Leiden Univ , March https://twitter com/suzan/status/977158060371316736 •Tellex, St ef anie, Kat z, Boris, Lin, Jimmy, Fernandes, Aaron and Mart on, Gregory (2003) Quant it at ive evaluat ion of passage retrieval algorithms for question answering In Proceedings of the SIGIR Conference on Research and Development in Informaion Retrieval •Turian, Joseph, Ratinov, Lev and Bengio, Yoshua (2010) Word representations: a simple and general method for semi-supervised learning In Proceedings of ACL, pages 384–394 